iT邦幫忙

2023 iThome 鐵人賽

DAY 8
0

由於前面的推送油價通知的小程式已經寫完了,接下來預計再做個爬104的爬蟲的小專案來度過這30天XD

要做的104爬蟲預計功能是醬子:
1.在104網站輸入關鍵字:測試/QA+地區+職務類別後,點擊搜尋
2.下拉載入所有頁面後,將職稱/公司/地址/薪水/經歷要求/學歷/工作內容/詳情等資料存到csv/excel/資料庫中
3.在存取下來的資料中,分析經驗要求&工作內容中,QA需要用到的技能的前三名為何

分析可能需要用到的技術:

  1. 104爬蟲: selenium,requests
  2. 將資料存到資料庫/csv/excel: sqlite3/pandas/openpyxl
  3. 分析存下來的資料: matplotlib or wordcloud+jieba
  4. 有時間的話,再將以上步驟轉為使用playWright or robotFramework撰寫

寫完大綱~明天準備來研究104怎麼爬囉~


上一篇
推上github 做排程以前,先寫個單元測試吧
下一篇
如何爬104的職缺
系列文
定期推送油價通知到Line上的訊息通知,並使用GitLab CI排程搭配Google Colab16
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言